V2EX  ›  英汉词典
Enqueued related words: Word Alignment

Aligned Corpus

释义 Definition

对齐语料库:指在两种或多种语言中,将对应的文本单位(常见为句子、段落,甚至词语)一一匹配(对齐)后的语料集合,常用于机器翻译、双语检索与语言学研究。(通常属于“平行语料库”的进一步加工结果。)

发音 Pronunciation (IPA)

/əˈlaɪnd ˈkɔːrpəs/

词源 Etymology

aligned 来自动词 align(使对齐、排成一线),源于古法语 aligner(排成一行),与 line(线、行)相关;corpus 来自拉丁语 corpus(身体、整体),在语言学中引申为“语料集合”。合起来即“已经对齐处理过的语料集合”。

例句 Examples

We built an aligned corpus from English and Chinese news articles.
我们用英文和中文新闻文章构建了一个对齐语料库。

Using an aligned corpus, the model can learn which phrases are likely translations of each other, even when the word order differs.
借助对齐语料库,模型可以学习哪些短语彼此可能是翻译关系,即使语序不同也可以。

相关词 Related Words

文献与作品 Literary / Notable Works

  • Statistical Machine Translation(Philipp Koehn):讨论平行语料与对齐在统计机器翻译中的核心作用。
  • Foundations of Statistical Natural Language Processing(Manning & Schütze):涉及语料库方法与对齐/对应关系的经典内容。
  • “BLEU: a Method for Automatic Evaluation of Machine Translation”(Papineni et al., 2002):机器翻译评测常依赖对齐/平行数据的生产与使用背景。
  • “Europarl: A Parallel Corpus for Statistical Machine Translation”(Koehn, 2005):平行语料建设与对齐处理在该类工作中非常典型。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   841 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 20:36 · PVG 04:36 · LAX 12:36 · JFK 15:36
♥ Do have faith in what you're doing.